Word2Vec
# Tag:
- Source/KU_ML2
Word2Vec
continious한 Word Embedding방식으로, context(문맥)을 input으로 하여서 그 문장속에서의 단어 간의 관계를 파악한다.
- 문장 내에서 몇 개의 단어를 묶어 이를 window라 하고, 이를 차원의 input으로 넣는다.
- hidden layer에서는 이보다 작은 차원으로 Embedding되어 학습된다.
- output에서는 차원의 one-hot vector 형태로 window 내에서의 center word가 무엇인지 학습하게 한다.
이 때, 비슷한 단어끼리 모여있는 Word Embedding의 특성이 드러나는 것 뿐 아니라, 특정한 관계에 있는 단어 벡터 간의 차이가, 비슷한 관계를 보이는 다른 단어 벡터간의 차이와 거의 동일하게 나타난다.
위 사진처럼, Queen과 King 사이의 Vector가, Woman과 Man 사이의 Vector로 동일하게 나타나기도 한다.